構想: PDFをGyazoにアップしたい
下記の内容を全面的にまとめなおした(2022/03/23)
PDFを画像に変換してアップする方法が確実
参考
localのpdfをgithub_pagesのpdf_to_scrapboxで選択する
pdf_to_scrapboxでpdfを画像に変換してgyazoにアップロードする
gyazoにはアップロードされた画像が保存される
一定時間後、gyazoにocrされたテキストが登録される
pdf_to_scrapboxにはgyazoのパーマリンクが返ってくる
gyazoのパーマリンクはscrapboxに書き込む
gyazoのパーマリンクをテキスト形式で保存
テキストをmakejsonに食わせてscrapbox用のjsonを生成する
パーマリンクからocrテキストを取得
title
PDFのタイトル
ページ数?
lines
パーマリンク
ocrテキスト
前の画像、次の画像のリンク?
タグ?
アップロードしてパーマリンクを取得
テキストに保存(上から順番を保持している)
code:本のタイトル.txt
import用jsonに整形
順番を維持した本のタイトルページ
リンクに連番を振っておく
それぞれのページ
前のページと次のページへのリンク
画像本体
ocrテキスト
タグ
jqなどで抽出する用途
code:json
{
"pages": [
{
"title": "本のタイトル",
"lines": [
{ "text": "本のタイトル" },
]
},
{
"title":"001: 本のタイトル",
"lines":[
{"text":"001: 本のタイトル1"},
{"text":""},
{"text":"code:aaabbb...ccc001"},
{"text":" ocr結果"},
]
},
{
"title":"002: 本のタイトル",
"lines":[
{"text":"002: 本のタイトル1"},
{"text":"code:aaabbb...ccc002"},
{"text":" ocr結果"},
]
},
...(略)
]
}
プライベートプロジェクトから引用する場合
何の本かわからなくなる…
code:ㅤ
こうした
code:ㅤ
GyazoのIDをそのままタイトルにしたらダメだ
Publicに持って行ったらURLが漏れることになるじゃん
タイトルは変えよう
画像の読み込みに思ったより時間がかかる
同一ページに前後のページの画像も貼り付けるようにした(2022/01/05)
「全部のPDFに共通なタグ」
入れるか入れないかオプションで決めたい
PDFだけで完結するプロジェクトなら毛玉になるからいらない
混ぜるなら後から取り出す時に指定できるようにしておきたい
混ぜるときになったら考えれば良い?
jsonまで作成できたらScrapboxにインポートする
目次の補完とかできたら便利かも?
目次、索引を補完できるとうれしい
インポートに失敗したらどうする?
システム的な失敗じゃなくて、これインポートしなきゃよかったな~元に戻したい(undoしたい)な~という場合
まとめてページを消すことができないんだよな
PDFのページは多いので、インポート後に消すのは面倒くさい